Consulta de Guías Docentes



Academic Year/course: 2021/22

623 - Master's Degree in Telecommunications Engineering

60967 - Speech technologies


Syllabus Information

Academic Year:
2021/22
Subject:
60967 - Speech technologies
Faculty / School:
110 - Escuela de Ingeniería y Arquitectura
Degree:
623 - Master's Degree in Telecommunications Engineering
ECTS:
6.0
Year:
2
Semester:
First semester
Subject Type:
Optional
Module:
---

1. General information

1.1. Aims of the course

The Speech Technologies subject proposes the acquisition of knowledge and the understanding of the different technologies that make up the automatic systems of human-machine interaction based on spoken language. The main objectives of the course are to achieve the learning outcomes and the acquisition of competences listed in the corresponding sections of this guide.

These approaches and objectives are aligned with some of the Sustainable Development Goals, SDG, of the 2030 Agenda (https://www.un.org/sustainabledevelopment/es/) and certain specific goals, in such a way that the acquisition of the Learning outcomes of the subject provides training and competence to the student to contribute to a certain extent to their achievement:

  • Goal 8: Promote sustained, inclusive and sustainable economic growth, full and productive employment and decent work for all
    Target 8.2 Achieve higher levels of economic productivity through diversification, technological modernization and innovation, including by focusing on high value-added and labor-intensive sectors.
    Target 8.3 Promote development-oriented policies that support productive activities, the creation of decent jobs, entrepreneurship, creativity and innovation, and encourage the formalization and growth of micro, small and medium-sized enterprises, including through access to financial services.
  • Goal 9: Industry, innovation and infrastructure
    Target 9.5 Increase scientific research and improve the technological capacity of industrial sectors in all countries, particularly developing countries, including by fostering innovation and significantly increasing, by 2030, the number of people working in research and development per million inhabitants and the spending of the public and private sectors in research and development.
    Target 9.c Significantly increase access to information and communication technology and strive to provide universal and affordable access to the Internet in least developed countries by 2020.

 

1.2. Context and importance of this course in the degree

The Speech Technologies course provides future telecommunication engineering professionals with the concepts to understand, analyze, evaluate and design the fundamental aspects and basic building blocks of human-machine interaction systems based on spoken language. In this way, it complements the basic concepts acquired in the field of audiovisual communication, image and audio processing and the development of interfaces in the Degree in Telecommunication Technologies and Services.

1.3. Recommendations to take this course

It is recommended that the student who wants to take Speech Technologies has taken or is simultaneously taking the Signal Processing for Communications course and it is recommended to take the optional course Machine Learning in Multimedia Data.

2. Learning goals

2.1. Competences

CE1: Ability to apply methods of information theory, adaptive modulation and channel coding, as well as advanced digital signal processing techniques to communication and audiovisual systems.

CE15: Ability to integrate technologies and systems of Telecommunication Engineering, with a general nature, and in broader and multidisciplinary contexts such as bioengineering, photovoltaic conversion, nanotechnology, telemedicine.

CB6: Possess and understand knowledge that provides a basis or opportunity to be original in the development and / or application of ideas, often in a research context.

CB7: Students will know how to apply the acquired knowledge and their ability to solve problems in new or unfamiliar environments within broader (or multidisciplinary) contexts related to their area of ​​study.

CB8: Students will be able to integrate knowledge and face the complexity of formulating judgments based on information that, being incomplete or limited, includes reflections on social and ethical responsibilities linked to the application of their knowledge and judgments.

CB9: Students will know how to communicate their conclusions –and the knowledge and ultimate reasons that support them- to specialized and non-specialized audiences in a clear and unambiguous way.

CB10: Students will possess the learning skills that allow them to continue studying in a way that will be largely self-directed or autonomous.

CG4: Capacity for mathematical modeling, calculation and simulation in technology and engineering centers of companies, particularly in research, development and innovation tasks in all areas related to Telecommunication Engineering and related multidisciplinary fields.

CG11: Ability to know how to communicate (orally and in writing) the conclusions - and the knowledge and ultimate reasons that support them - to specialized and non-specialized audiences in a clear and unambiguous way.

CG12: Possess skills for continuous, self-directed and autonomous learning.

2.2. Learning goals

A1: Understand and master the processes of generation and human perception of speech.

R2: Knows and uses digital voice signal processing techniques.

A3: Understand and use the fundamental techniques of pattern recognition applied to speech.

R4: Understand and master the concepts of acoustic modeling, language modeling and their use in speech recognition and synthesis.

A5: Knows and uses speech technologies related to automatic speech recognition, speech synthesis and biometric recognition from speech.

2.3. Importance of learning goals

The acquisition of the competencies and abilities proposed in the Speech Technologies subject, as well as the understanding of the theoretical concepts discussed, complement the competences of a Telecommunications Engineer in the field of voice-based communication systems. The entire set of skills acquired in this subject will be very useful for their training.

The concepts and techniques developed as well as the practical training received in this subject will facilitate the understanding of the building blocks of an interaction system based on spoken language and will provide the basis for delving into more detailed aspects of them and possibilities for professional development.

3. Assessment (1st and 2nd call)

3.1. Assessment tasks (description of tasks, marking system and assessment criteria)

E1: Laboratory work

The laboratory work of the subject constitutes 20% of the final grade. Its evaluation will be made from the deliverables after the completion of the same provided by the students and the attitude and performance in the laboratory, which will be evaluated continuously. A minimum grade of 4 out of 10 is required in this section to pass the course.

E2: Tutored work

Tutored assignments represent 30% of the final grade. In the qualification, the analytical and critical capacity of the student to study a problem or specific aspects in a system based on speech technologies will be assessed, making use of the theoretical and practical tools learned in the subject. In addition, the originality of the solutions will be evaluated, the ability to work in a group, the ability to coordinate the work and transmit the relevant information orally and in writing, since the work carried out will be presented through a common report to the group and of an oral presentation. A minimum grade of 4 out of 10 is required in this section to pass the course.

E3: Midterm exam

During the course there will be a written test of theoretical-practical questions that will weigh 15% of the final grade. Passing it, a grade greater than or equal to 5 out of 10 in this test, will exempt the student from taking this part of the final exam. This test will be repeated within the final exam (E4) for students who have not passed it or wish to improve their grade.

E4: Final exam

The final exam will consist of a written test that represents 50% of the final grade. A part corresponding to 15% of the mark corresponds to the repetition of the partial exam (E3)

A minimum mark of 4 out of 10 is required in the final exam mark (E4) to pass the course.

E5: Final grade for the course.

The final grade (CF) of the subject will be the highest result of the following expressions:

CF = 0.20 * E1 + 0.30 * E2 + 0.15 * E3 + 0.35 * E4 or

CF = 0.20 * E1 + 0.30 * E2 + 0.5 * E4

with the commented restrictions: E1≥4, E2≥4, E3≥4 and E4≥4

There will be a global test in each of the calls established throughout the course. The dates and times will be determined by the Center.

4. Methodology, learning tasks, syllabus and resources

4.1. Methodological overview

The methodology followed in this course is oriented towards achievement of the learning objectives. A wide range of teaching and learning tasks are implemented, such as lectures (P1), practice sessions (P2), supervised individual or group assignments (P3), and laboratory sessions (P4).

4.2. Learning tasks

The course includes the following learning tasks:

  • Lectures. Presentation of the main course contents combined with the active participation of students. They will take place in 2-hour sessions.The theoretical contents are taught in a way that it allows students to achieve all the specified learning outcomes and competences.
  • Practice sessions. Students solve exercises and problems in the classroom. Their contents will be closely related to the lectures. This activity is designed to gradually progress in the achievement of the learning outcomes and competences.
  • Supervised individual or group assignments. In groups, students will solve several practical problems related to the syllabus. Solutions must be submitted in time and in the correct format. This activity is designed to consolidate all the learning outcomes and competences. The marks of these assignments is part of the assessment. 
  • Laboratory Sessions (8 hours). Sessions of 2 hours will be held in the computer classroom. For a efficient use of the sessions, some previous preparation will be required as well as some after-lab work with the obtained results to settle the concepts. Through these activities, all specified learning outcomes and competences are strengthened and reinforced. Instructions and guidelines will be provided in advance so each student will be able to find a detailed description of the activities to be performed in the lab as well as the way in which the student must show the acquisition of the relevant results and competences, since it is also an assessment task. 

4.3. Syllabus

The course will address the following topics:

Topic 1. Introduction to speech technologies

  • Speech Communication model
  • Speech Generation
  • Speech Perception

Topic 2. Fundamentals of pattern recognition

  • Bayes Decision Theory 
  • Classifiers
  • Extraction and selection of features
  • Unsupervised estimation methods 

Topic 3. Speech Processing

  • Speech production digital model
  • Short-term analysis, time-frequency representation 
  • Linear Prediction
  • Homomorphic Analysis
  • Applications: pitch and formants estimation, noise reduction

Topic 4. Automatic Speech Recognition

  • Historical perspective and state of the art
  • Acoustic Modelling
  • Language Modelling
  • Basic search algorithms
  • Applications and toolkits

Topic 5. Text to speech conversion

  • Historical perspective and state of the art
  • Linguistic Analysis
  • Speech Synthesis
  • Applications and toolkits

Topic 6. Biometric Speaker recognition

  • Historical perspective and state of the art
  • Verification and speaker identification
  • Applications and toolkits

4.4. Course planning and calendar

Further information concerning the timetable, classroom, office hours, assessment dates and other details regarding this course, will be provided on the first day of class or please refer to the EINA website.

4.5. Bibliography and recommended resources

http://psfunizar10.unizar.es/br13/egAsignaturas.php?codigo=60936


Curso Académico: 2021/22

623 - Máster Universitario en Ingeniería de Telecomunicación

60967 - Tecnologías del habla


Información del Plan Docente

Año académico:
2021/22
Asignatura:
60967 - Tecnologías del habla
Centro académico:
110 - Escuela de Ingeniería y Arquitectura
Titulación:
623 - Máster Universitario en Ingeniería de Telecomunicación
Créditos:
6.0
Curso:
2
Periodo de impartición:
Primer semestre
Clase de asignatura:
Optativa
Materia:
---

1. Información Básica

1.1. Objetivos de la asignatura

La asignatura Tecnologías del Habla plantea la adquisición del conocimiento y la compresión de las diferentes tecnologías que componen los sistemas automáticos de interacción persona-máquina basados en el lenguaje oral. Los objetivos principales de la asignatura son alcanzar los resultados del aprendizaje y la adquisición de competencias enumeradas en los apartados correspondientes de esta guía.

Estos planteamientos y objetivos están alineados con algunos de los Objetivos de Desarrollo Sostenible, ODS, de la Agenda 2030 (https://www.un.org/sustainabledevelopment/es/) y determinadas metas concretas, de tal manera que la adquisición de los resultados de aprendizaje de la asignatura proporciona capacitación y competencia al estudiante para contribuir en cierta medida a su logro:

  • Objetivo 8: Promover el crecimiento económico sostenido, inclusivo y sostenible, el empleo pleno y productivo y el trabajo decente para todo

Meta 8.2  Lograr niveles más elevados de productividad económica mediante la diversificación, la modernización tecnológica y la innovación, entre otras cosas centrándose en los sectores con gran valor añadido y un uso intensivo de la mano de obra
Meta 8.3  Promover políticas orientadas al desarrollo que apoyen las actividades productivas, la creación de puestos de trabajo decentes, el emprendimiento, la creatividad y la innovación, y fomentar la formalización y el crecimiento de las microempresas y las pequeñas y medianas empresas, incluso mediante el acceso a servicios financieros

  • Objetivo 9: Industria, innovación e infraestructuras

Meta 9.5 Aumentar la investigación científica y mejorar la capacidad tecnológica de los sectores industriales de todos los países, en particular los países en desarrollo, entre otras cosas fomentando la innovación y aumentando considerablemente, de aquí a 2030, el número de personas que trabajan en investigación y desarrollo por millón de habitantes y los gastos de los sectores público y privado en investigación y desarrollo
Meta 9.c Aumentar significativamente el acceso a la tecnología de la información y las comunicaciones y esforzarse por proporcionar acceso universal y asequible a Internet en los países menos adelantados de aquí a 2020.

 

1.2. Contexto y sentido de la asignatura en la titulación

La asignatura Tecnologías del Habla proporciona a futuros profesionales ingenieros de telecomunicación los conceptos para comprender, analizar, evaluar y diseñar los aspectos fundamentales y bloques básicos de los sistemas de interacción persona-máquina basados en el lenguaje oral. Complementa de este modo los conceptos básicos adquiridos en el ámbito de la comunicación audiovisual y el desarrollo de interfaces en el Grado de Tecnologías y Servicios de Telecomunicación.

1.3. Recomendaciones para cursar la asignatura

Es recomendable que el alumno que quiera cursar Tecnologías del Habla  haya cursado o curse simultáneamente la asignatura Tratamiento de Señal para Comunicaciones y se recomienda cursar la asignatura de formación Optativa Aprendizaje automático en datos multimedia.

2. Competencias y resultados de aprendizaje

2.1. Competencias

CE1: Capacidad para aplicar métodos de la teoría de la información, la modulación adaptativa y codificación de canal, así como técnicas avanzadas de procesado digital de señal a los sistemas de comunicaciones y audiovisuales.

CE15: Capacidad para la integración de tecnologías y sistemas propios de la Ingeniería de Telecomunicación, con carácter generalista, y en contextos más amplios y multidisciplinares como por ejemplo en bioingeniería, conversión fotovoltaica, nanotecnología, telemedicina.

CB6:  Poseer y comprender conocimientos que aporten una base u oportunidad de ser originales en el desarrollo y/o aplicación de ideas, a menudo en un contexto de investigación.

CB7: Los estudiantes sabrán aplicar los conocimientos adquiridos y su capacidad de resolución de problemas en entornos nuevos o poco conocidos dentro de contextos más amplios (o multidisciplinares) relacionados con su área de estudio.

CB8:  Los estudiantes serán capaces de integrar conocimientos y enfrentarse a la complejidad de formular juicios a partir de una información que, siendo incompleta o limitada, incluya reflexiones sobre las responsabilidades sociales y éticas vinculadas a la aplicación de sus conocimientos y juicios.

CB9:  Los estudiantes sabrán comunicar sus conclusiones –y los conocimientos y razones últimas que las sustentan- a públicos especializados y no especializados de un modo claro y sin ambigüedades.

CB10: Los estudiantes poseerán las habilidades de aprendizaje que les permitan continuar estudiando de un modo que habrá de ser en gran medida autodirigido o autónomo.

CG4: Capacidad para el modelado matemático, cálculo y simulación en centros tecnológicos y de ingeniería de empresa, particularmente en tareas de investigación, desarrollo e innovación en todos los ámbitos relacionados con la Ingeniería de Telecomunicación y campos multidisciplinares afines.

CG11: Capacidad para saber comunicar (de forma oral y escrita) las conclusiones- y los conocimientos y razones últimas que las sustentan- a públicos especializados y no especializados de un modo claro y sin ambigüedades.

CG12: Poseer habilidades para el aprendizaje continuado, autodirigido y autónomo.

2.2. Resultados de aprendizaje

R1: Comprende y domina los procesos de generación y percepción humana del habla.

R2: Conoce y utiliza las técnicas de procesado digital de la señal de voz.

R3: Comprende y utiliza las técnicas fundamentales de reconocimiento de patrones aplicadas al habla.

R4: Comprende y domina los conceptos de modelado acústico, modelado de lenguaje y su utilización en reconocimiento y síntesis del habla.

R5: Conoce y utiliza las tecnologías del habla relacionadas con el reconocimiento automático del habla, la síntesis de habla y el reconocimiento biométrico a partir de la voz.

2.3. Importancia de los resultados de aprendizaje

La adquisición de las competencias y habilidades propuestas en la asignatura Tecnologías del Habla, así como la comprensión de los conceptos teóricos tratados, complementan las competencias de un Ingeniero de Telecomunicación en el ámbito de los sistemas de comunicación basados en la voz. Todo el conjunto de capacidades adquiridas en esta asignatura será de gran utilidad para su formación.

Los conceptos y técnicas desarrollados así como la formación práctica recibida en esta asignatura facilitarán la comprensión de los bloques integrantes de un sistema de interacción basado en el lenguaje oral y le proporcionará la base para profundizar en aspectos más detallados de los mismos y posibilidades de desarrollo profesional.

3. Evaluación

3.1. Tipo de pruebas y su valor sobre la nota final y criterios de evaluación para cada prueba

E1: Prácticas de laboratorio

Las prácticas de laboratorio de la asignatura constituyen el 20% de la calificación final. Su evaluación se realizará a partir de los entregables posteriores a la realización de las mismas aportados por los alumnos y de la actitud y el rendimiento en el laboratorio, que será evaluado de forma continua. Se requiere un nota mínima de 4 sobre 10 en este apartado para superar la asignatura.

E2: Trabajos tutorizados

Los trabajos tutorizados representan el 30% de la calificación final. En la calificación se valorará la capacidad analítica y crítica del alumno para estudiar un problema o aspectos concretos en un sistema basado en tecnologías del habla haciendo uso de las herramientas teóricas y prácticas aprendidas en la asignatura. Además se evaluará la originalidad de las soluciones, la capacidad para trabajar en grupo, la habilidad para coordinar el trabajo y de transmitir la información relevante de forma oral y escrita, ya que el trabajo realizado se presentará a través de un informe común al grupo y de una presentación oral. Se requiere una nota mínima de 4 sobre 10 en este apartado para superar la asignatura.

E3: Examen parcial

Durante el curso se realizará una prueba escrita de cuestiones teórico-prácticas que ponderará el 15% de la calificación final. Su superación, nota mayor o igual a 5 sobre 10 en esta prueba, eximirá al estudiante de presentarse a esta parte del examen final. Esta prueba se repetirá dentro del examen final (E4) para los alumnos que no la hayan superado o deseen mejorar su nota. 

E4: Examen final

El examen final consistirá en una prueba escrita que representa el 50% de la calificación final. Una parte correspondiente al 15% de la nota se corresponde con la repetición del examen parcial (E3)

Se requiere una nota mínima de 4 sobre 10 en la nota del examen final (E4) para superar la asignatura.

E5: Calificación final de la asignatura.

La calificación final (CF) de la asignatura será el resultado mayor de las expresiones siguientes:

CF=0.20*E1 + 0.30*E2 + 0.15*E3+0.35*E4  ó

CF=0.20*E1 + 0.30*E2 +0.5*E4

con las restricciones comentadas:  E1≥4, E2≥4, E3≥4 y E4≥4

Se dispondrá de una prueba global en cada una de las convocatorias establecidas a lo largo del curso. Las fechas y horarios vendrán determinados por el Centro. 

4. Metodología, actividades de aprendizaje, programa y recursos

4.1. Presentación metodológica general

P1. Clases magistrales participativas. Exposición por parte del profesor de los principales contenidos de la asignatura, combinada con la participación activa del alumnado. Esta metodología, apoyada con el estudio individual del alumno está diseñada para proporcionar a los alumnos los fundamentos teóricos del contenido de la asignatura.

P2: Prácticas de aula. En las que se realizan resolución de problemas y casos prácticos propuestos por el profesor de los fundamentos presentados en las clases magistrales, con posibilidad de exposición de los mismos por parte de los alumnos de forma individual o en grupos autorizada por el profesor.

P3: Prácticas de laboratorio. En grupos pequeños, se realizan una serie prácticas de laboratorio que permitan consolidar el conjunto de conceptos teóricos desarrollados a lo largo de las clases magistrales. Esta actividad se realizará en el Laboratorio de forma presencial.

P4: Trabajos prácticos tutorados. Realización de un trabajo práctico en grupo y tutorizado por el profesor, basado en los contenidos de la asignatura.

P5: Tutoría. Horario de atención personalizada al alumno con el objetivo de revisar y discutir los materiales y temas presentados en las clases tanto teóricas como prácticas.

P6: Evaluación. Conjunto de pruebas escritas teórico-prácticas y presentación de informes o trabajos utilizados en la evaluación del progreso del estudiante. El detalle se encuentra en la sección correspondiente a las actividades de evaluación

4.2. Actividades de aprendizaje

A01 Clases magistrales participativas (33 horas): Exposición por parte del profesor de los principales contenidos de la asignatura, combinada con la participación activa del alumnado.

A02 Prácticas de aula (6 horas): En las que se realizan resolución de problemas y casos prácticos propuestos por el profesor de los fundamentos presentados en las clases magistrales, 

A03 Prácticas de laboratorio (10 horas): En las que los alumnos realizarán 5 sesiones de prácticas de 2 horas de duración. Los alumnos presentarán posteriormente un informe escrito que recogerá las principales conclusiones del trabajo realizado.

A05 Trabajos prácticos tutorados (20 horas): Realización de un trabajo práctico en grupo y tutorizado por el profesor, basado en los contenidos de la asignatura.

A07 Evaluación. Conjunto de pruebas escritas teórico-prácticas y presentación de informes o trabajos utilizados en la evaluación del progreso del estudiante.

4.3. Programa

TEMA 1. Introducción a las tecnologías del habla

  • Modelo de comunicación oral
  • Generación del habla
  • Comprensión del habla

TEMA 2. Fundamentos de reconocimiento de patrones

  • Teoría de la decisión de Bayes
  • Clasificadores
  • Extracción y selección de parámetros
  • Métodos de estimación no supervisada

TEMA 3. Procesado digital de la señal de voz

  • Modelo de producción digital de la voz
  • Análisis localizado de la voz: representación tiempo-frecuencia
  • Predicción lineal
  • Análisis Homomórfico
  • Aplicaciones: estimación de pitch y formantes, reducción de ruido

TEMA 4. Reconocimiento Automático del Habla

  • Perspectiva histórica y estado del arte
  • Modelado acústico
  • Modelado de lenguaje
  • Algoritmos básicos de búsqueda
  • Aplicaciones y toolkits

TEMA 5. Conversión texto-voz

  • Perspectiva histórica y estado del arte
  • Análisis lingüístico
  • Síntesis de voz
  • Aplicaciones y toolkits

TEMA 6. Reconocimiento biométrico por la voz

  • Perspectiva histórica y estado del arte
  • Verificación e identificación de locutor
  • Aplicaciones y toolkits

4.4. Planificación de las actividades de aprendizaje y calendario de fechas clave

El calendario de la asignatura, tanto de las horas presenciales, como las sesiones de laboratorio estará definido por el centro en el calendario académico del curso correspondiente.

La asignatura consta de un total de 5 créditos ECTS. Las actividades se dividen en clases teóricas, resolución de problemas o casos prácticos en clase, prácticas de laboratorio y la realización de trabajos tutelados relacionados con las tecnologías del habla. Las actividades tienen como objetivo facilitar la asimilación de los conceptos teóricos complementándolos con los prácticos, de forma que se adquieran los conocimientos y las habilidades básicas relacionadas con las competencias previstas en la asignatura.

Las fechas de inicio y finalización del curso y las horas concretas de impartición de la asignatura así como las fechas de realización de las prácticas de laboratorio e impartición de seminarios se harán públicas atendiendo a los horarios fijados por la Escuela. Las fechas de entrega y seguimiento de los trabajos prácticos tutorizados se darán a conocer con suficiente antelación en clase y en la página web de la asignatura en el anillo digital docente, https://moodle.unizar.es/.

4.5. Bibliografía y recursos recomendados

http://psfunizar10.unizar.es/br13/egAsignaturas.php?codigo=60936